1.7メモ scikit-learnの機械学習アルゴリズムの要点

アイリスデータセット

多クラス分類（3クラス）

個々のアイテムをサンプルと呼び、その特性を特徴量と呼ぶ (1.7.1)

クラスとラベル

クラス：分類結果

ラベル：個々のアイリスの品種

→ マルチラベルは個々が複数取る

データを見て、機械学習で解けそうか判断

例：ペアプロット

scikit-learnの機械学習アルゴリズム = Estimator

カプセル化

訓練データからモデルを構築する際に用いられるアルゴリズム (1.7.4)

新しいデータポイントに対して予測するためのアルゴリズム (1.7.4)

訓練データからアルゴリズムが抽出した情報 (1.7.4)

デフォルトではテストセットは25%

データはX

2次元配列（行列）→ 大文字

ラベルはy

1次元配列（ベクトル）→ 小文字

fit

訓練セットを使ってモデルを訓練

fitはEstimatorそのものを返すとともに、Estimatorそのものを置き換える（！？どんな実装？）

score

テストセットを使ってモデルを評価

知りたいのは汎化性能

predict

2次のNumPy配列で入力（例：1 × 4）

サンプル数 × 特徴量の数